04. Loading data(from GCS)

  • 이번 문서에서는 Google Cloud Storage에서 Data를 BigQuery로 Load하는 방법을 소개드리겠습니다
  • Kaggle 경진대회 데이터를 BigQuery에 넣고 활용해보겠습니다

  • 위 사진은 Kaggle이란 사이트에서 진행하고 있는 경진대회입니다!
  • Web Traffic 대회 데이터를 넣어보겠습니다!

  • 위키피디아의 데이터네요. 유사한 데이터가 BigQuery Public Data에 존재합니다!
  • Data를 다운로드한 후, BigQuery Console로 이동해주세요-!

  • My project라고 써있는 곳 우측의 삼각형 버튼을 클릭해주세요!

  • Create new dataset 클릭해주세요-!
  • Dataset ID(이름)와 Data location, expiration을 설정해주세요! (저는 ID만 지정했습니다)
  • 생성된 후 Dataset에서 + 버튼을 눌러주세요
  • 그 다음 화면에서 File upload - Choose file을 통해 직전에 받은 파일을 클릭했더니 다음과 같은 오류가 발생했습니다
  • 10mb 미만만 직접 올릴 수 있고, 그보다 크다면 GCS를 이용하라고 합니다
  • 그렇다면! 구글 클라우드 콘솔로 이동해주세요
  • ( 참고로 Schema에서 Automatically detect를 체크하면 쉽게 Column을 찾아서 매칭해줍니다 )
  • 좌측에 있는 Storage를 클릭해주세요!
  • Storage가 이미 존재하는 경우엔 해당 버켓에 넣어도 되고, 존재하지 않는다면 '버킷 생성' 버튼을 눌러 새로운 버켓을 생성합니다
  • 그 이후 파일 업로드를 통해 다시 파일을 GCS로 업로드해주신 후, 해당 링크를 BigQuery로 연결하면 됩니다!

요약

  • Data Load는 4가지 방법으로 할 수 있습니다
    1. File Upload
    2. Google Cloud Storage
    3. Googld Drive
    4. Google Cloud Bigtable
  • 1번 File Upload는 데이터의 용량이 10mb 미만일 경우 사용 가능합니다
  • 2번 Google Cloud Storage는 버켓에 데이터를 업로드한 후, Data load를 누르면 됩니다
  • 3번 Google Drive 연동은 정말 쉽습니다! Spread Sheet 연동시 사용
  • 4번 Google Cloud Bigtable을 사용하는 것은 초반에 간단히 진행하기 어렵기 때문에 본 문서에선 제외했습니다

In [ ]: